热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

ACL2022|字节AILab联合UCSB提出MOSST:基于单调切分的端到端同传

研究背景和动机随着信息技术的发展,流媒体和多媒体成为信息传递的主要媒介,逐渐应用在我们生活的方方面面。即时的信息传递需求也在日益增加。特别地ÿ

研究背景和动机

随着信息技术的发展,流媒体和多媒体成为信息传递的主要媒介,逐渐应用在我们生活的方方面面。即时的信息传递需求也在日益增加。特别地,在跨国交流和文化传播场景中,为了消除语言沟通障碍,即时语音翻译发挥着重要作用,广泛应用于旅游、教育、医疗、电商、新闻播客等场景。国内很多公司都形成了比较完整的流式语音翻译的解决方案。流式语音翻译是指接收音频流的过程中,能够实时返回源语言音频对应的翻译结果。最被大众所熟知的应用形式是AI同传:在会议同传中,流式语音翻译技术通常会以流式输出的双语字幕的形式展示给观众

QQ20220420124434HD.gif

:::


流式语音翻译面临的挑战

流式语音翻译技术(Simultaneous Speech Translation,简称SiST)需要同时权衡翻译质量翻译延迟。一方面,为了更好的用户体验,SiST追求较低延迟,这就需要尽可能早地开始翻译;另一方面,为了保证翻译的准确性,需要输入更多的上下文,这要求等待尽可能多的音频流。综上,SiST的目标是在满足一定延迟约束的情况下取得最好的翻译准确性。传统的SiST是由流式的语音识别和流式的机器翻译等多个模块串联而成的级联系统实现的。由于级联系统存在错误累积和局部优化等问题,端到端SiST逐渐受到了研究者的关注。

现有经典的端到端SiST工作是基于固定策略的wait-k训练:首先,SiST按固定步长接受音频流,直到K步;然后,SiST迭代地进行音频流的输入和翻译结果的输出,直到音频流结束或者翻译结束。


这篇文章给大家介绍ACL2022上的一篇研究流式语音翻译的工作,“Learning When to Translate for Streaming Speech”,主要是引入了一种单调切分模块(Monotonic Segmentation Module)用于语音翻译(Speech Translation),简称MoSST,作者来自字节跳动人工智能实验室和加州大学圣塔芭芭拉分校。


1.PNG


论文地址:https://arxiv.org/abs/2109.07368
代码地址:https://github.com/dqqcasia/mosst
火山翻译在线体验:http://translate.volcengine.cn/



基于单调对齐的流式语音翻译

已有的SiST方法是基于固定步长读入音频流,会破坏音频边界,无法保证读入的语音信息是完整的。基于动态步长读入音频流会更适合流式的音频翻译任务。那么,如何找到合适的时刻来结束一次读入过程就是一个要解决的问题了。这篇工作引入了一种单调切分模块,能够检测音频流的边界,实现动态读入,如下图所示。

::: hljs-center

2.PNG

:::


模型结构和细节

如下图所示,MoSST由声学编码器、单调切分模块以及Transformer组成。除了单调切分模块,MoSST的模型和经典的离线ST模型是完全一致的。

::: hljs-center

3.png

:::

MoSST的单调切分模块是由连续整合发放[1]的工作启发得来的。具体地,单调切分模块利用整合发放神经元实现动态的读写策略。这种神经元有两种模式,整合模式和发放模式。在整合模式,神经元持续地接收信号以及积累信息,当接收到的信息超过了特定阈值,即进入发放模式,神经元会释放一个信号,例如尖峰状态等,这时的状态包含了上一个整合阶段积累的信息,然后神经元将会重置,重新进入整合模式,再次循环。

MoSST使用完整句子进行训练,另外,为了缓解ST (Streaming speech) 任务数据匮乏的问题,引入了预训练的声学模型进行初始化以及多任务学习策略。


实验结果和分析


实验结果


  • 性能超过基线系统

我们与已有的SiST的工作,SimulST[2] , SimulSpeech[3]进行了性能比较。如下图可以看出,在延迟和BLEU的指标上,MoSST的性能显著优于基线系统。

::: hljs-center

4.png

5.png

:::


  • 性能超过级联系统

我们和级联的流式语音翻译系统进行了比较,结果如下图。级联系统是由一个流式语音识别系统和流式机器翻译系统串联而成。可以看出,错误传播问题在级联的流式语音翻译任务中仍然比较严重。MoSST在翻译质量的指标上有较大优势。

::: hljs-center

6.png

:::


  • 离线翻译性能提升

另外,MoSST因为采用整句训练的方式,也具备离线语音翻译的能力,我们在受限设置下对比了已有的离线模型的性能,结果如下图。这表明MoSST在离线场景也有不错的表现。

::: hljs-center

7.png

:::


实验分析


  • 自适应策略和固定策略的比较

对于固定策略,步长的参数设置影响非常大。如下图所示,随着步长的增大,翻译准确率有显著提升,但是延迟指标也落入了比较大的区间。

::: hljs-center

8.png

:::

自适应策略和固定策略的性能比较如下图所示。自适应策略能够动态地决定合适的步长,因此可以在翻译延迟和翻译准确性之间取得更好的平衡。

::: hljs-center

9.png

:::


  • 消融实验

我们在离线翻译任务上进行了消融实验,结果如下图所示。可以看出,随着每个模块或者策略的去除,翻译准确性都有显著下降,音频预训练和单调切分模块的影响都比较大。

::: hljs-center

10.png

:::


总结

端到端SiST是个更加有挑战性的问题,需要平衡翻译延迟和翻译准确性两个维度的指标。本文介绍的MoSST框架引入了一种单调切分模块动态地读取音频单元,实验结果证明了该方法的有效性。并且该方法具备在流式翻译和离线翻译两种场景应用的潜力。


参考文献

[1] Linhao Dong and Bo Xu. 2020. CIF: continuous integrate-and-fire for end-to-end speech recognition. In 2020 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2020, Barcelona, Spain, May 4-8, 2020, pages 6079–6083.

[2] Xutai Ma, Juan Pino, and Philipp Koehn. 2020. SimulMT to SimulST: Adapting simultaneous text translation to end-to-end simultaneous speech translation. In Proc. of AACL, pages 582–587.

[3] Yi Ren, Jinglin Liu, Xu Tan, Chen Zhang, Tao Qin, Zhou Zhao, and Tie-Yan Liu. 2020. SimulSpeech: End-to-end simultaneous speech to text translation. In Proc. of ACL, pages 3787–3796.


作者:董倩倩


-The End-
关于我“门”


将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门-TechBeat技术社区以及将门创投基金。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com



推荐阅读
  • 向QTextEdit拖放文件的方法及实现步骤
    本文介绍了在使用QTextEdit时如何实现拖放文件的功能,包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数,并结合QMimeData和QUrl等类,可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]
  • 在Android开发中,使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法,并提供了具体的代码实现。通过获取图片的宽高,计算目标宽度和高度,并创建新图实现等比例缩放。 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • 深度学习中的Vision Transformer (ViT)详解
    本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理,包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明,对于CV任务,直接应用纯Transformer架构于图像块序列是可行的,无需依赖于卷积网络。 ... [详细]
  • 本文介绍了在Cpp中将字符串形式的数值转换为int或float等数值类型的方法,主要使用了strtol、strtod和strtoul函数。这些函数可以将以null结尾的字符串转换为long int、double或unsigned long类型的数值,且支持任意进制的字符串转换。相比之下,atoi函数只能转换十进制数值且没有错误返回。 ... [详细]
  • 本文介绍了解决java开源项目apache commons email简单使用报错的方法,包括使用正确的JAR包和正确的代码配置,以及相关参数的设置。详细介绍了如何使用apache commons email发送邮件。 ... [详细]
  • 本文整理了常用的CSS属性及用法,包括背景属性、边框属性、尺寸属性、可伸缩框属性、字体属性和文本属性等,方便开发者查阅和使用。 ... [详细]
  • 抽空写了一个ICON图标的转换程序
    抽空写了一个ICON图标的转换程序,支持png\jpe\bmp格式到ico的转换。具体的程序就在下面,如果看的人多,过两天再把思路写一下。 ... [详细]
  • 本文由编程笔记#小编为大家整理,主要介绍了logistic回归(线性和非线性)相关的知识,包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]
  • 本文介绍了设计师伊振华受邀参与沈阳市智慧城市运行管理中心项目的整体设计,并以数字赋能和创新驱动高质量发展的理念,建设了集成、智慧、高效的一体化城市综合管理平台,促进了城市的数字化转型。该中心被称为当代城市的智能心脏,为沈阳市的智慧城市建设做出了重要贡献。 ... [详细]
  • 本文介绍了九度OnlineJudge中的1002题目“Grading”的解决方法。该题目要求设计一个公平的评分过程,将每个考题分配给3个独立的专家,如果他们的评分不一致,则需要请一位裁判做出最终决定。文章详细描述了评分规则,并给出了解决该问题的程序。 ... [详细]
  • 关于我们EMQ是一家全球领先的开源物联网基础设施软件供应商,服务新产业周期的IoT&5G、边缘计算与云计算市场,交付全球领先的开源物联网消息服务器和流处理数据 ... [详细]
  • 本文讨论了如何使用GStreamer来删除H264格式视频文件中的中间部分,而不需要进行重编码。作者提出了使用gst_element_seek(...)函数来实现这个目标的思路,并提到遇到了一个解决不了的BUG。文章还列举了8个解决方案,希望能够得到更好的思路。 ... [详细]
  • Question该提问来源于开源项目:react-native-device-info/react-native-device-info ... [详细]
author-avatar
福田商务汽车--南宁鑫来
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有